Nat Methods|用AlphaFold以原子精度预测蛋白质结构
以下是全文内容。
AlphaFold是一种基于神经网络的预测蛋白质结构的方法,具有很高的准确性。我们概括地描述了它的工作原理,并讨论了对结构生物学领域的一些预期影响。
在2020年的蛋白质结构预测关键评估(CASP14)中,AlphaFold1预测了几乎三分之二的目标蛋白质结构,其准确度被评估者认为可与实验方法相媲美(backbone上的典型偏差约为1 Å)。这一进展是建立在几十年来构建全面的蛋白质序列和结构数据库的基础上的,使得模式生物蛋白质组的结构覆盖率大幅提高,包括人类蛋白质组中结构已知精度高的部分增加了一倍。
AlphaFold的核心是一种新型的神经网络,其构建模块专门用于预测蛋白质结构的问题。神经网络是一大类机器学习算法,由线性和非线性成分交替的管道组成,称为层,通常使用梯度下降法对最终预测的误差进行 "训练"(优化参数的过程)。训练后的神经网络的准确性和通用性在很大程度上取决于网络架构的设计(所使用的层以及它们的连接方式)和它的训练。为了开发AlphaFold的神经网络,我们着手创建新的网络架构和训练程序,使之与我们对蛋白质生物学的理解保持一致。
AlphaFold成功的一个关键是在网络内部和组件之间建立了与蛋白质物理学和生物学概念相适应的通信模式。例如,凡是有可以被解释为不同序列位置之间交流的互动,我们都会在我们的"配对表示(pair representation)"中添加一个特殊的连接,使网络能够根据它对成对残基互动的理解来调节这些相互作用。在实践中,这意味着网络在训练中能迅速学会在蛋白质中序列遥远的位置之间进行交流,而这些位置在折叠结构中是空间上的局部,不需要硬编码特定的几何算法。同样,训练也是适应的,以便神经网络能够有效地利用蛋白质序列数据(即使在结构未知的情况下),并鼓励其学习广义的协同进化模式。这些和其他许多想法对网络的综合影响是巨大的。AlphaFold可以被训练成使用相同的蛋白质数据库(PDB)训练数据来产生更准确的结构预测,就像早期不太准确的方法一样。
作为更严格的泛化测试,AlphaFold能够准确预测人工构建的结构,这些构建包括用柔性连接体或人工序列间隙连接的多个蛋白质。请注意,这种情况在AlphaFold的训练数据中很少(如果有的话)被观察到,但却遵守了与常规蛋白质结构相同的物理和几何原理。使用这些人工连接或间隙序列,AlphaFold网络可以用来预测蛋白质-蛋白质的相互作用,其准确度甚至超过了专门的蛋白质相互作用预测器,尽管它只在单一蛋白质链上进行了训练。然而,通过在神经网络的训练中包括蛋白质-蛋白质相互作用,可以大大增加异构体相互作用的预测。尽管有这些进展,蛋白质相互作用的预测仍然需要发展,目前的问题包括假阴性和抗体结合的困难,随着进一步的研究可能会大大减少。
从近期来看,有了预测蛋白质结构的准确方法,许多功能研究就可以根据预测模型提出的结构假设来进行,而这在以前是需要实验模型的。这对研究不足的生物体和元基因组学特别有用,因为结构覆盖率通常非常稀少,而且扩展缓慢,但基因组覆盖率却可以更快地提高。实际上,AlphaFold放大了实验性蛋白质结构群体的综合产出,创造了一个巨大的可靠蛋白质结构宇宙(图1)。整个蛋白质组的结构预测也创造了大规模解释蛋白质结构的机会,并为基因组中的蛋白质编码变体增加几何和生物物理背景。然而,正如实验模型一样,需要注意解释计算模型的可信度和局限性,以确保从中得出的结论是有根据的,并理解模型中可能存在的错误。
图1:AlphaFold作为稀疏实验数据的放大器
机器学习的作用示意图,它将较小量的实验确定的数据转换为一套全面的实验预测。
这些计算模型也有望加速实验结构测定的进展。很大一部分X射线结构可以通过使用AlphaFold预测的结构进行分子置换,而且该网络的预测是建立实验电子密度模型的极好起点。此外,对蛋白质拓扑结构和结构域的了解将能更好地设计用于结构测定的实验构造。最近关于核孔复合体的工作表明,单体和成对异构体建模可以非常有效地与低分辨率的冷冻电子显微镜数据相结合,提供巨大分子机器的原子尺度模型。
AlphaFold和相关技术将使我们有可能利用蛋白质相互作用模型所产生的丰富的成对联系,为更多的细胞过程建立原子模型。这个方向的早期工作已经发现了许多新的真核生物的相互作用,异质体建模的进一步进展将大大扩展我们对蛋白质相互作用网络的覆盖。这将产生对新的计算方法的需求,以大规模解释分子通路的结构生物学,并有可能为深度学习系统创造新的机会,结合大规模、低分辨率的实验技术(如低温电子断层扫描)来解释这些数据。
尽管这些和相关的发展最终将使我们在对结构良好的蛋白质成分的几何形状进行建模方面更进一步,但在理解这些成分的动态和功能行为以及理解蛋白质组的巨大无序区域方面仍有许多工作要做。不过,细胞生物学的其他领域很有可能复制结构预测所发生的情况:通过开发正确的机器学习工具,像PDB这样精心收集的多样化生物资源的影响可以被放大许多数量级。
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AlphaFold】
●Nat Methods特刊|2021年度方法:蛋白质结构预测
●迈入世界领先梯队!天壤自研蛋白质结构预测平台 TRFold,单张 GPU 16 秒实现精准预测
●对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码
●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测
●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs